Szcenáriófelismerés látás-nyelvi transzformátorok segítségével vizuális adathalmazokon (Scenario recognition using vision-language transformers on visual datasets)
Ipari partner: Robert Bosch Kft.
Az ADAS fejlesztése során alapvető fontosságú, hogy a rendelkezésre álló adatkészletekben azonosítsunk bizonyos forgatókönyveket. Erre a célra a CLIP-hez hasonló látásnyelvi transzformációs modelleket lehet felhasználni nyílt forráskódú vizuális ADAS-adatkészletek felhasználásával. A feladat magában foglalja egy korszerű vektoradatbázis (pl. Milvus) létrehozását a kinyert jellemzők tárolására és lekérdezésére, amelyek alapján a forgatókönyveket meg kell határozni.
Szükséges készségek:
- Python
- Docker
- LLM finomhangolással kapcsolatos tapasztalat (opcionális)
During the development of ADAS it is essential to identify certain scenarios in the available datasets. For this purpose vision-language transformer models, like CLIP, could be utilized using open source visual ADAS datasets. The task includes the set up of a state-of-the-art vector database (e.g. Milvus) to store and query the extracted features based on which the scenarios should be defined.
Required skills:
- Python
- Docker
- (optional) Experience with LLM fine-tuning
Budapesti Műszaki és Gazdaságtudományi Egyetem (BME) Távközlési és Mesterséges Intelligencia Tanszék (TMIT) 1117, Budapest, Magyar tudósok körútja 2. tel: (1) 463-2448; fax: (1) 463-3107 email: titkarsag@tmit.bme.hu